重磅更新:ChatGPT 联网、Bard 插件、Meta AI 眼镜
ChatGPT
最近 OpenAI 持续发布重磅更新,从 DALL·E 3[1]、语音图像[2]、再到现在的联网功能,都在不断地提高 ChatGPT Plus 的性价比。这些功能会在未来两周内逐步向 Plus 用户开放。
目测应该会有一波人退订其他服务,重新回到 ChatGPT 阵营。如果这些更新组合起来使用,生产力将不可想象。
联网
9月 28 日,OpenAI 发帖称联网功能再次回归。ChatGPT 之前就发布过此功能,但因用户发现他们可以通过直接向聊天机器人提供 URL来诱骗聊天机器人向他们提供付费内容,OpenAI 就对其进行下架整改。
联网对于需要最新信息的任务特别有用,例如帮助你进行技术研究、尝试选择商品或计划假期等等。现在,Plus 和 Enterprise 用户可以使用此功能,很快就会扩展到所有用户。在 GPT-4 下的下拉菜单中选择 “Browse with Bing” 即可启用。
📌 GPTBot 网络爬虫OpenAI 使用 GPTBot 用户代理来抓取网页改进模型,或为模型提供联网功能。你可以通过向网站添加 robots.txt 来控制 GPTBot 的访问权限。
网站可以通过以下用户代理(User Agent)和字符串来识别 GPTBot:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)完全禁止 GPTBot[3]:
User-agent: GPTBot
Disallow: /自定义 GPTBot 访问[4]:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
语音图像
9 月 25 日,OpenAI 发文介绍了语音和图像功能。现在的 ChatGPT 不但可以看见,听见,还可以说话(科幻照进现实)。它在未来两周内逐步向 Plus 用户推送(在 iOS 和 Android 中进行语音对话)。
语音
你点击一个按钮说出问题,ChatGPT 将其转化为文本并提供给模型,得到答案,再将该答案转回为语音,并大声回答。这与各种对话助手类似,但 OpenAI 希望通过底层技术的改进,让回答变得更好。
OpenAI 的 Whisper 模型完成了大量的语音转文本工作,新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。你可以从五种声音(Juniper、Sky、Cove、Ember、Breeze)中选择一个自己喜欢的声音。但 OpenAI 似乎认为模型的潜力远不止于此,它正在与 Spotify 合作,将播客翻译成其他语言。
但这种技术也带来了潜在的风险,如恶意使用合成语音进行欺诈。因此,OpenAI 限制了这种技术的普及应用,并仅限于特定的用途和合作伙伴。
图像
图像搜索有点像 Google Lens。你只需拍摄任何感兴趣的物体,将照片上传,ChatGPT 会尝试理解你想要询问的内容并相应地回应。你还可以使用应用的绘图工具来帮助明确你的查询,或说出或键入与图像相关的问题。
它也有其潜在的问题,当你询问关于人的一些事情时,OpenAI 表示已经故意限制了 ChatGPT 的“分析和直接陈述有关人的能力”,这既是出于准确性也是出于隐私考虑。
DALL·E 3
OpenAI 将 DALL-E 3[5] 集成在 ChatGPT Plus 中,它在理解细节方面超越了先前的系统,使用户的创意能够精确地转化为图像(了解更多 ChatGPT 集成 DALL-E 3,多模态 AI 即将来临)。
其他进展
Google Bard
从推出以来,Google 已为 Bard 增加了许多新功能和集成。现在可以扫描用户的 Gmail、Docs 和 Drive 来帮助用户查找信息。用户可以要求 Bard 从邮件或 Drive 文档中提取和总结关键信息。尽管这可能引发隐私担忧,但 Google 强调不会使用用户数据来训练 Bard,并且用户可以选择是否开启此集成。除此之外,Bard 还将与 Maps、YouTube 和 Google Flights 进行整合,为用户提供更多实用功能。
Meta AI
Meta 已正式加入 AI 聊天机器人的竞争,首先在 WhatsApp、Instagram 和 Messenger 中发布了其助手和 28 个 AI 角色。与 OpenAI 的 ChatGPT 相似,Meta 的 AI 旨在成为一个通用助手,帮助用户策划旅行或回答搜索引擎问题。与此同时,Meta 与微软的 Bing 达成了合作,提供实时的网络搜索结果。该 AI 还能够生成图像(通过 /imagine
命令生成与 Midjourney、DALL·E 3 类似的图像),并与多个名人如 Charli D'Amelio 和 Snoop Dogg 等相似的 AI 角色进行互动,这些角色在与之交互时会显示动态效果。Meta 的目标是利用其在社交网络中的巨大用户基数,使其 AI 助手成为人们首选的工具。
Meta 与雷朋合作推出了售价 $299 的 AI 智能眼镜,具有多种功能。这款眼镜可以理解用户正在看什么,并针对用户的问题提供答案。无论用户想要识别眼前的建筑、翻译标志,还是修理漏水的水龙头,都可以通过询问 Meta AI 得到指导。除此之外,眼镜还支持直播功能,用户可以通过它直接与朋友和粉丝互动。
macOS Sonoma
还没有升级新系统的朋友可以试试了,在新系统 Sonoma 中,苹果提供了上百款动态锁屏(从自然、城市、深海、到地球等),这些动画会在锁屏解锁时定格为静态壁纸(千变万化,帧帧都是独一无二的)。
总结
神仙打架:OpenAI、Bard 以及 Meta 都在不断地整合自家生态,开始在端应用发力,提供各种有趣的,更加人性化的交互形式。
References
DALL·E 3: https://openai.com/dall-e-3
[2]语音图像: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
[3]完全禁止 GPTBot: https://platform.openai.com/docs/gptbot/disallowing-gptbot
[4]自定义 GPTBot 访问: https://platform.openai.com/docs/gptbot/customize-gptbot-access
[5]DALL-E 3: https://openai.com/dall-e-3